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(57) Abstract: The invention 
relates to a computer system 
which can tolerate transient 
errors and which consists of a 
processing unit, comprising the 
following: at least two processing 
units (50, SI), each comprising 
a microprocessor (54, 57), a 
memory (53, 56) that is protected 
by a device that generates and 
checks an error detection and 
correction code and a device (55, 
58) for surveying memory access; 
a centralised device (52) for 
managing the processing units and 
the inputs/outputs, comprising the 
following: macro-synchronisation 
means, data comparison/election 
means, correction request means, 
decision-making means and means 
for effecting the inputs/outputs; 
and links (60, 61) connecting 
each processing unit to the device 
(52) for managing the processing 
units and the inputs/outputs, 
respectively. 
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(57) Abr^g^: La presente invention concerne un syst^me informatique tol^ant aux erreurs transitoires constitu^ d*une unit^ de trai- 
tement, comprenant: au moins deux unites de traitement (50, 51) comportant chacune: un microprocesseur (54, 57); une m^moire 
(53, 56) protegee par un disposilif g^n^rant el controlant un code de detection et correction d'erreur, un dispositif (55, 58) de sur- 
veillance des acc^s m^moire, un dispositif (52) centralist de gestion des unites de traitement et des entr6es/sorties comportant: des 
moyens de macro- synchronisation; des moyens de comparaison/vote de donnees; des moyens de demande de correction; des moyens 
de prise de decision; des moyens permettant d'effectuer les entrees/sorties; des liaisons (60,^1) reliant respectivement chaque unit^ 
de traitement au dispositif (52) de gestion des unites de traitement et des entrees/sorties. 
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SYSTEMS INFORMATIQXJE TOLERANT AUX ERREURS TRANS XTOIRES 
ET PROCEDE DE GESTION DANS UN TEL SYSTEME 

DESCRIPTION 

DOMAINS TECHNIQUE 

La presente invention concerne un systeme 
inf onnatique tolerant aux erreurs transitoires et un 
proced6 de gestion dans un tel systeme. 

Le domaine de 1 ' invention est celui des 
architectures inf ormatiques soumises a des 
environnements perturbants pour les composants 
61ectroniques (radiations, perturbations 

61ectroinagn6tiques) susceptibles d'engendrer des 
erreurs transitoires, par exemple dans les domaines : 

- spatial, nucleaire et a6ronautique, ou 
1 * environnement est constitu6 entre autre d'ions 
lourds, 

- automobile, soumis a un environnement 
61ectromagn6tique severe . 

20 ETAT DE LA TECHNIQUE ANTERIEURE 

Dans la suite de la description, 1 ' exemple 
du domaine spatial, qui est tres representatif des 
erreurs transitoires aleatoirement gen^rees sur des 
25 composants electroniques, est utilise. 

Les concepteurs d 'architectures inf or- 
matiques pour satellites sont confront^s au probleme 
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des radiations existantes dans I'espace. L'un des 
effets de ces radiations est nonune "ev^nement 
singulier" (en anglais "upset" ou "Single Event 
Upset"), correspondant a un ou plusieurs changements 
d'etats temporaires de bits dans des composants 
electroniques tels que des memoir es . Les erreurs 
engendrees par les ^venements singiiliers peuvent 
about ir k la g4n4ration de donnees erron^es (e.g. 
mauvaise commande d'\in -actuateur du satellite), ou k 
une perturbation grave du s4quencement du logiciel 
(i.e. plantage du microprocesseur) . 

Jusqu'^ present, la solution aux erreurs de 
type 6v6nement singulier reside dans 1 'utilisation de 
technologies de circuits int4gr6s peu sensibles k ce 
15 ph6nom6ne (dites «tol6rantes aux radiations"), voire 
insensibles (dites "durcies axjot radiations"). De telles 
technologies ne sont pas utilisees par 1' Industrie 
micro- 61 ectronique industrielle, et par consequent ont 
6t6 d6veloppees specif iquement pour les applications 
20 militaires et spatiales. 

Le coQt global associe a 1' existence de . 
telles technologies micro-electronique et du 
developpement de composants pour celles-ci 
(developpement, maintenance, Evolution continuelle des 
25 performances) , et done le codt de vente de ces 
composants, est tres 61eve (le developpement d'lme 
nouvelle fili^re micro-^lectronique peut avoisiner 
1 Gigafranc ; le coQt d' achat d'un microprocesseur 
tolerant ou durci aux radiations est de plusieurs 
30 dizaines de kilofrancs, alors que sa version 
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commerciale est de quelques milliers de francs ; le 
ratio durci /commercial peut §tre de 100 ou plus) . 

Le ministere de la defense americain a 
donne un coup de frein a 1 ' utilisation de composants 
'5 61ectroniques militaires pour ses applications, et 
acceler^ le processus d' appropriation par les activites 
militaires des specifications / normes / composants 
c ommer c i aux . 

La part de marche des composants 
10 militaires, dits ''haute fiabilite", a fortement chute, 
de 80 % dans les annees 1960 a moins de 1% en 1995 
(forte augmentation de 1 'utilisation de composants 
electroniques par 1* Industrie, reduction des marches 
militaires) ; au point que ces composants pourraient 
15 Stre amenes a disparaltre prochainement (de grands 
fabricants de composants militaires se sont retires de 
ce march6 de moins en moins porteur) . 

La possibility d'utiliser des composants 
commerciaux dans les applications spatiales est un 
20 probleme auquel est confront^ tout pro jet de nouvelle 
g^ndration. On attend de 1 'utilisation de ce type de 
composants dans le spatial les avantages suivants ; 

- Resolution du probleme de la reduction 
constatee de 1' off re en composants ''haute fiabilite", 

25 suite aux retraits de ce march6 de fournisseurs 
ma j eur s - 

- Reduction des coflts : le poste 
"composants haute fiabilite" est non negligeable dans 
le co-Qt total du ddveloppement d'un equipement, et 

3 0 devient preponderant dans son coQt recurrent. Le poids 
des .composants est cependant tres variable en fonction 
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de la cible prise en compte (plate-forme, charge utile, 
equipement, niveau de recurrence, etc.)- 

- Utilisation de f onctions/composants plus 
perf ormants , permettant de reduire le volume 

5 d' electronique (optimisation de la masse / consommation 
/.fiabilite) et/ou d'augmenter la f onctionnalite . 

- Reduction de la duree de d^veloppement 
des projets pour offrir un acces a I'espace plus 
reactif, le delai d' approvisionnement des composants 

10 ''haute fiabilit^" etant couramment de un ou deux ans . 

Neanmoins, un probleme majeur auquel est 
conf rente le concepteur d' architectures informatiques 
utilisant des composants commerciaux est la sensibilite 
de ces composants a\ix radiations, et en particulier aux 

15 ions lourds. Get aspect qui 6tait traite au niveau 
"'composanf ant^rieurement (technologies tolerantes ou 
durcies) , doit alors §tre resolu au niveau 
"architecture" et "systeme". 

Les satellites, et done leur 61ectronique 

20 embarquee, sont soumis a un environnement. radiatif, 
compost de diff^rentes particules (Electrons, ions 
lourds, protons) , que ne connaissent pas les systemes 
utilises au sol car ces particules sont filtr-ees par 
1 ' atmosphere . 

25 L'origine de ces particules peut Stre 

classee en quatre composantes, qui peuvent §tre liees 
entre elles : 

- le rayonnement cosmique d'origine en 
partie extra-galactique, en partie galactique, 

30 constitu6 d'ions extremement energetiques. 
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- les ceintures de radiation autour de la 
terre constitutes d' Electrons et de protons pieges 
engendrts suite a des interactions entre 1 ' atmosphere 
terrestre et des particules solaires, 

5 - les eruptions solaires <3ui emettent des 

protons ou des ions- lourds, 

- le vent solaire gener^ par 1 ' evaporation 
du plasma coronal, permettant 1 ' echappement a 
1* attraction gravitationnelle du soleil de protons et 

10 d'ions de faible energie. 

Ces particules energetiques , en percutant 
et traversant un composant 61ectronique, lui 
transfferent une partie de leur energie qui va perturber 
le bon f onctionnement de celui~ci . Dans la presente 

15 description, on s'interesse aux evenements singuliers, 
cr66s par les ions lourds et les protons . 

Ces 6v6nements singuliers correspondent ^ 
la generation d'erreurs de bits dans les cellules qui 
memorisent des valeurs binaires i.e. les cellules 

20 mtmoires, les regis tres et les bascules elementaires : 
une valeur ^0' memorisee par une cellule memoire va se 
transformer en une valeur '1' ou reciproguement • En 
regie generale, un seul bit est modifie par un ion 
lourd. Ces evenements ne sont pas destructifs et I'on 

25 peut par la suite ecrire une nouvelle donnee, qui est 
memorisee sans erreur (hors apparition d'un autre 
evenement singulier dans la m§me cellule) . Les erreurs 
engendrees par ces phtnomenes sont done transitoires - 

Pour pouvoir utiliser des composants 

30 commerciaux dans le domaine spatial sur une large 
tchelleV- une premiere solution possible est de 
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s^lectionner par test en radiation systematique des 
composants coiranerciaux, car certains peuvent §tre 
naturellement insensibles aux radiations (ou au moins a 
certains de leurs effets) . Une telle solution, non 
5 seulement tres couteuse sur le plan de la selection, 
n'est qu'un pis aller car ne permet pas forcement 
d'utiliser les grands standards de 1' Industrie dans le 
cas ou ceux-ci se reveleraient sensibles aux 
radiations, ce qui est pourtant souhaitable. Une 

10 deuxieme solution est de trouver une methode permettant 
de tolerer les phenomenes engendres par ces radiations, 
en particulier les erreurs transitoires , c'est-a-dire 
definir des architectures permettant de detecter les 
erreurs, puis de les corriger. La prise en compte des 

15 erreurs transitoires est alors transferee du niveau 
^^composant" au niveau '^architecture" et ''syst^e". 
Cette solution est prefer6e de 1 • invention car elle est 
^conomiquement plus rentable et permet de r^duire les 
contraintes sur les choix de composants . 

20 Le domaine de la tolerance aux pannes et 

aux fautes a fait I'objet de nombreux travaux de 
recherche, et certains mecanismes sont largement 
utilises dans les systemes sol, par exemple pour etre 
tolerant a la panne d'un composant (e.g. systemes 

25 securitaires) . 

De nombreux mecanismes de detection, 
isolation et recouvrement de fautes sont connus de 
1 • homme de 1 ' art . Certains mecanismes permet tent 
simplement de detecter des erreurs, d'autres de les 

3 0 detecter puis de les masquer, voire de les corriger. 
Par ailleurs, ces mecanismes sont adaptes au trait^ment 



wo 01/46805 



PCT/FROO/03640 



7 

soit d'erreurs temporaires , soit de pannes definitives, 
soit des deux : 

- Evitement de fautes : raf raichissement 
syst^matique des donnees statiques avant leur 

""5 utilisation effective (e.g, registres . de 

configuration) ; autotests en dehors du f onctionhement 
nominal {^'off-line") permettant de detecter une panne 
de composant avant que celui-ci ne soit utilise. 

~ Codes detecteurs ou detecteurs / 

10 correcteurs d'erreurs qui s'appliquent aux memoires, 
aux communications, et eventuellement a la logique 
(essentiellement dans la realisation de circuits 
integres specifiques (ASIC) ou de circuits logiques 
prograinmables par 1 'utilisateur (FPGA) dits "a contr61e 

15 int^gre"). Des dispositifs de detection et correction 
d'erreurs (EDAC) sont systematiquement utilises en 
spatial sur les plans memoire. Une fonction de 
scrutation (relecture syst^matique de tout . le plan 
memoire) est associ^e k ces dispositifs et s' execute en 

20 t^che de fond afin d'eviter 1 ' accumulation d'erreurs 
dormantes qui, a terme, pourraient mettre en d6faut les 
capacit6s de detection/correction du code, 

- Duplication et comparaison, ou 
triplication et vote majoritaire, en anglais NMR 

25 Modular Redundancy", redondance modulaire d'ordre N) ou 
le cas specif ique TMR (''Triple Modular Redundancy", 
triple redondance modulaire) : ces m^canismes 
permettent d'obtenir des architectures stares lors d'une 
panne ("fail safe") cjui ne generent pas de mauvaise 

3 0 commande mais qui s'arretent k la premiere faute 
(duplex) , ou des architectures restant operationnelles 
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lors d'une panne ("fail operational") qui ont la 
capacity de masquer une erreur simple en temps reel et 
de poursuivre en restant sQres (triplex) . Ce type 
d' architecture a ete utilise dans les etudes de 
5 calculateurs surs de f onctionnement pour les capsules 
spatiales europeennes tel que decrit dans le docximent 
reference [4] en fin de description. On trouve 
egaiement dans cette classe les architectures 
maltre/contr61eur ("master/checker") ou I'on duplique 
10 uniquement les microprocesseurs , les donnees generees 
par le ^'maltre" 6tant verif iees par le "controleur" . Le 
microprocesseur ERC-32 de la societe TEMIC/MHS int^gre 
ce mecanisme, comme decrit dans le document reference 
[5] . 

15' - Programmation multiple C'N-yersion 

programming") associee aux architectures 3S!MR, qui 
permet de d6tecter 6galement des erreurs de conception 
logicielle car chaque calculateur dispose d'une version 
. de logiciel qui a 6t6 d6velopp6 specif iquement a partir 

20 d'une specification commune, 

- Redondance temporelle : il s'agit soit 
d'executer deux fois et de comparer, soit d'executer 
une fois, de charger un registre de commande puis de le 
relire afin de le comparer pour pouvoir le valider, tel 

25 le mecanisme ''armer puis tirer" (''arm and fire") 
utilise en spatial pour les commandes tres critiques 
(par exemple declenchement des elements 

pyrotechniques ) . 

~ Controle du temps d' execution : d^s 

30 chiens de gardes ("watchdog timer") sent utilises dans 
tous les calculateurs spatiaux (un programme doit 
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s'executer en un temps limits ) • De plus, des controles 
plus fins du temps d' execution peuvent §tre incorpor^s 
dans le logiciel (contr61e de la duree d'une tache, 
duree maximale autorisee pour obtenir la reponse d'un 
• -5 element de communication, etc.). La remise a jour du 
chien de garde peut §tre conditionnee par un 
s^quencement specifique de cles (utilise dans le 
domaine automobile) . 

- Verification du flot de contr61e (e.g. 
10 controle du sequencemerit d'un microprocesseur ) : les 

chiens de garde permettent un controle grossier 
(detection' d'un plantage dur) . Un contrdle fin du flot 
d' instructions est possible avec un processeur de 
surveillance ('^watchdog processor") plus ou moins 
15 complexe- Le contr61e par analyse de signature est 
particuliferement efficace et peu demandant en 
61ectronique . 

- Contr61e de la validity de I'adressage 
d'un microprocesseur k partir des droits d'acc^s par 

20 pages / segments . 

- Contr61e de vraisemblance : ce principe 
est utilise dans les systemes de contr61e d' attitude et 
d' orbite de satellites ou 1 ' on compare soit les donnees 
de plusieurs types de capteurs pour de teeter des 

25 incoherences eventuelles, soit une donnee par rapport a 
une reference estimee grace a un filtre predictif sur 
les valeurs precedentes, soit une donnee par rapport a 
une plage d' appartenance predefinie. Les methodes dites 
tolerantes aux fautes basees sur le traitement 

30 algorithmique (*' Algorithm Based Fault Tolerance") 
representent une sous-classe des contr61es de 
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vraisemblance, la verification etant basee sur 
1' execution d'un deuxieme algorithme (par exemple 
1 ' algorithme inverse qui perniet de retrouver les 
donnees initiales en partant des r6sultats obtenus si 
5 ceux"-ci sont exempts d'erreurs) . 

- Contr61e structurel ou semantique des 
donnees, necessitant des. structures de donnees 
relativement complexes . 

- Concepts complementaires de recouvrement 
10 d'erreurs, pour les mecanismes ne permettant pas de 

corriger les fautes, principalement les points de 
reprise : sauvegarde reguliere de contextes et reprise 
k partir du dernier contexte sauvegarde. Le 
developpement du calculateur COPRA (1980) , comme decrit 
15 dans les documents r6f6rences [1] a [3] , est bas6 sur 
ce principe. 

- Reinsertion de la ressource en faute par 
transfusion d'un contexte sain dans le calculateur 
fautif, afin de retrouver la capacite initiale de 

2 0 detection/correction de certaines architectures, Une 

reinsertion des chaines en faute d'un calculateur peut 
§tre realisee par l'op6rateur pendant les phases de vol 
non critiques. 

L 'architecture, de type "maitre- 

25 controleur", consiste k dupliquer uniquement le 
microprocesseur , a synchroniser les deux 

microprocesseurs instruction par instruction, et a 
comparer sys tematiquement leurs bus a chaque acces 
memoire (instructions et donnees) . Certains 

3 0 microprocesseurs int^grent directement sur la puce les 

mecanismes de synchronisation ainsi que les 
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comparateurs de bus : par exemple les microprocesseurs 
IBM RH5000, Intel i960, Intel Pentium, TEMIC/MHS ERC-32 
comme decrit dans le document reference [5] . 

Ainsi le synoptique illustre sur la figure 

5 1 comprend ; 

- un microprocesseur maitre 1 comportant : 

• un coeur microprocesseur CM, 

• un generateur d'horloge GH, 

• un synchronisateur d'horloge SH, 
10 • un registre de configuration RC, 

• un comparateur de bus CMP, 

• des isolateurs mono ou bidirectionnels , 

- un microprocesseur controleur 2 comprenant les 
m§me5 elements : 

15 • un coeur microprocesseur CM 

• un g^n^rateur d'horloge GH, 

• un synchronisateur d'horloge SH, 

• un registre de configuration RC, 

• un comparateur de bus CMP, 

20 • des isolateurs mono ou bidirectionnels, 

- \ine m^moire 3 . 

Les signaux C, A et D sont respectivement 
des bus internes de contr61e, d'adresse et de donn^es . 

Les horloges H et Hi sont respectivement, 
25 et par exemple, de frequences 10 MHz et 100 MHz. 

Les bus 4, 5 et 6 sont respectivement les 
bus externes de controle, d'adresseet de donnees. 

Sur la figure 1 les Elements hachur^s sont 
specif iques a 1 * architecture "maitre-controleur " , les 
30 signaux barres sont des signaux inactifs ou inhibes • 
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Le microprocesseur integre les elements 
specif iques a 1 ' architecture "maitre-controleur " 
suivants : 

- un registre RC qui permet de configurer 
5 I'un des deux microprocesseurs en ''maitre", et 1' autre 

en ''controleur " , 

- une synchronisation des horloges internes 
Hi aux deux microprocesseurs , 

- des comparateurs de bus CMP, 

10 • - une logique permettant de positionner les 

isolations de bus en entree ou en sortie en fonction du 
type d'acces en lecture ou ecriture, et en fonction 
6galement de la configuration en ^^maltre" ou en 
"controleur" du microprocesseur. 

15 Comme illustre sur les figures 2A et 2B qui 

representent respectivement la phase d'ecriture et la 
phase de lecture de la m6moire, le f onctionnement est 
le suivant les deux microprocesseurs 1 et 2 lisent et 
ex6cutent les m§mes instructions en m&ae temps . Lors de 

20 chaque acc^s en 6criture h la memoire, les deux coeurs 
microprocesseurs CM gen^rent une adresse et une donn^e . 
Les isolations de bus du microprocesseur maltre 1 sont 
orientees en sortie, alors que celles du 
microprocesseur controleur 2 sont orientees en entree 

25 et les comparateurs de bus de ce dernier comparent bit 
a bit les valeurs fournies par les deux coeurs 
microprocesseurs CM. En cas d' incoherence, le 
microprocesseur contr61eur 2 g6nere un signal d'erreur. 
Lors de chaque acces en lecture a la memoire^ 1' adresse 

3 0 fournie par le microprocesseur maltre 1 est compar^e 
par le microprocesseur contr61eur 2 a celle calcul6e 
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par ce dernier ; en cas d' accord, les deux 
microprocesseurs 1 et 2 lisent la mime donn6e. 

La difficult^ de realiser ce type 
d' architecture avec des microprocesseurs qui ne sent 
5 pas congus pour, et qui integrant done pas les 
mecanismes decrits ci-dessus, reside dans les 
dephasages entre les horloges . internes et externes-. En 
effet, 1 'utilisateur fournit au microprocesseur une 
horloge a relativement basse frequence (quelques 

10 dizaines de MHz) , qui est multipliee en interne grace a 
une boucle a verrouillage de phase, afin d'obtenir des 
frequences plus elevees (quelques centaines de MHz) . 
Deux microprocesseurs alimentes par la m§me horloge 
fonctionnent done k la m§me frecjuence mais sont 

15 d6phas6s I'un par rapport k 1' autre. La valeur de ce 
d^phasage est aldatoire et determin^e k la mise sous 
tension. La comparaison directe des bus est ainsi 
rendue impossible. 

Dans 1 ' architecture ''maltre-contr61eur " , la 

20 m6moire n'est pas dupliqu^e. Dans 1 ' architecture COPRA, 
la m6moire est dupliquee uniquement pour §tre tolerante 
aux pannes de composants, mais les deux unites 
centrales utilisent la m§me banque raemoire. 

25 L^objectif du precede de 1 ' invention est de 

traiter les erreurs transitoires dans les architectures 
inf ormatiques , par exemple pour satellites, avec un 
taux de couverture tres eleve afin de permettre 
1 • utilisation de composants commerciaux dans des 

30 missions ayant de tres fortes contraintes de 
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disponibilit^, ceci malgr6 leur sensibilite aux 
evenements singuliers induits par des radiations • 

EXPOSE DE L*XNVENTION 

5 

La presents invention propose un systeme 
inf oirmatique tolerant aux erreurs transitoires , 
constitue d'une unite de traitement, caracterise en ce 
qu'il comprend : 
10 • au moins deux unites de traitement comportant 

chacune : 

- un microprocesseur 

- une m^moire prot6g6e par un dispositif 
gen^rant et contr61ant un code de detection et 

15 correction d'erreur, 

~ un dispositif de surveillance des acces 
m^nioire, comprenant : 

des moyens de segmentation de la m6moire 
et de verification des droits d' acces k 
2 0 chaque s egment , 

des moyens de protection specifique des 
segments de la memoire alloues a la 
sauvegarde du contexte de recouvrement , 

des moyens de generation d'un signal de 
25 demande de correction au dispositif de 

gestion des unites de traitement et des 
entrees /sorties , 
• un dispositif centralise de gestion des unites de 
traitement et des entrees/sorties comportant : 
30 - des moyens de macro-synchronisation des unites 

de traitement, 
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- des nioyens de. comparaison/vote des donn6es 
g6nerees par les unites de traitement, 

- des moyens (signal) de demande de correction 
^manant des dispositifs de surveillance des 

5 acc^s memo ire, 

des moyens de prise de decision afin 
d ' initialiser une phase de correction en cas 
d*erreur et des moyens (signal) permettant de 
transmettre simultanement cette demande a toutes 
10 les unites de traitement, 

- des moyens permettant d'effectuer les 
entrees/sorties , 

• des liaisons reliant respectivement chaque unite ' 
de traitement au dispositif de gestion des unites 
15 ' de traitement et des entries / sorties • 

Avantageusement les tSches logicielles 
beneficient d'une protection specif ique 

particulierement sCre obtenue grS.ce au dispositif -de 
surveillance des acc^s mdmoire qui comprend des moyens 
20 permettant : 

- de differencier les zones memoire de chaque 
tSche, 

- d'autoriser les acces a la zone memoire affectee 
a la tache courante , 

25 - d'interdire les acces aux zones memoires 

af f ect^es aux autres taches . 

Avantageusement la memorisation du contexte 
precedent des taches logicielles beneficie d'une 
protection specif ique _ particulierement sHre obtenue 
30 grSce au dispositif de surveillance des acces memoire 
qui comprend des moyens permettant : 
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- de memoriser ce contexte dans une m^moire de type 

RAM ("Random Access Memory") banalis6e et 
centralis^e de chaque unite de traitement sans 
n^cessiter de dispositif de stockage specif ique, 
5 - de differencier les zones memoire affectees a la 

sauvegarde du contexte de chaque tSche, 

- de gerer chaque zone servant a memoriser ce 
contexte en une double banque "Old" .et "New", 

- de faire travailler en basculement les doubles 
10 banques "Old" et "New", 

- de basculer les doubles banques ' en 
intervertissant simplement un jeu d* index "Old" et 
"New" , 

- d*autoriser en lecture les zones "Old" tout en 
15 les interdisant en ecriture. 

Ce dispositif peut §tre utilise dans un 

.A' 

systeme 61ectronique embarqu^ et/ou dans le domaine 
spatial . 

La presente invention propose dgalement un 
20 proced6 pour rendre tolerant aux fautes transitoires iin 
systeme informatique constitue d'une unite de 
traitement, caract6ris6 en ce qu'il permet : 

• d'executer simultanement sur au moins deux unites 
de traitement, de fagon independante et asynchrone, 
25 des logiciels identiques, et repondant au 

f onctionnement suivant : 

- les erreurs transitoires affectant la memoire 
des unites de traitement sont detectees et 
corrigees grdce a 1 • utilisation d*un code de 

30 detection et correction stocke en memoire 

associe a une tSche logicielle de scrutation. 
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- le bon f onctionnement du microprocesseur des 
unites de traitement est v6rifi6 grace a une 
segmentation de la memoire associee a une 
surveillance des acces memoire qui contr61e que 

5 le microprocesseur dispose bien des droits 

d' acces au segment courant de la memoire, 

- les segments memoire alloues a la ' sauvegarde du 
contexte de recouvrement sont d'une grande 
surete grSce a une surveillance specifique des 

10 acces memoire, afin d' assurer qu'un 

microprocesseur dysf onctionnant ne puisse pas 
generer d'erreur dans ces zones critiques / 

- une demande de correction est transmise a la 
fonction de gestion des unites de traitement et 

15 des entrees/sorties en cas de violation des 

droits d'acc^s, 
• de centraliser les operations suivantes dans la 
fonction de gestion des unites de traitement et des 
entrees/sorties : 
2 0 - macro-synchronisation des differentes executions 

simultanees du logiciel, 

- comparaison/vote de toutes les donnees generees 
par les differentes executions du logiciel, 

- reception des demandes de correction emanant des 
25 fonctions de suarveillance des acces memoire 

suite ^ une detection d'erreur, 

- lorsqu'une erreur est d^tect^e quelle que soit 
sa source/ prise de decision afin d' initialiser 
une phase de correction et transmission de cette 

30 demande simultanement aux differentes executions 

du logiciel, 
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- realisation des entries /sorties ^ la demande des 
logiciels, 

• de realiser 1' interface entre les logiciels 
. s ' executant simultanement et la fonction de gestion 
5 des unites de traitement et des entrees/sorties. 

Avantageusement il existe une zone de 
confinement d'erreurs entre taches logicielles, c'est- 
a-dire gu'un microprocesseur dysf onctionnant peut 
perturber uniquement les variables de la tache courante 

10 mais pas celles des autres taches grSce a la gestion 
des segments memoire. 

Avantageusement/ en cas de detection 
d'erreur, un recouvrement est possible, m§me s'il n*y a 
que deux unites de traitement, grSce au vote puis k la 

15 memorisation du contexte precedent des* tS.ches 
logicielles, et grS.ce k sa protection specif ique 
permettant de garantir qu'il est sain, ladite 
protection ^tant stire car, m§me s'il est memorise dans 
une memoire banalisee et centralis^e de chaque unite de 

2 0 traitement, il y est memorise dans des zones gerees par 
le dispositif de surveillance des acces memoire dans 
des zones memoire specifiques a chaque tache en une 
double banque "Old" et "New" travaillant en 
basculement, le basculement de ces doubles banques 

25 s'effectuant en intervertissant simplement un jeu 
d* index "Old" et "New" afin que le contexte courant 
devienne ainsi le contexte precedent, les zones "Old" 
etant autorisees en lecture pour servir de donnees 
d' entree aux tSches mais interdites en ecriture et 

30 ainsi protegees m§me en cas de dysf onctionnement des 
microprocesseurs . 
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Avantageusement le recouvrement d'erreur 
bas6 sur une restauration du contexte precedent, est 
r6alis6 grSce au fait que 1 ' index indiquant le contexte 
precedent juge sain, c'est-a-dire exempt d'erreur, 
5 n*est pas change, alors qu*il est bascule 
systematiquement en fin de periode correspondant a la 
granularite de d^tection/recouvrement lorsqu ' aucune 
erreur n'est detectee ; la restauration se limite ainsi 
a un "non basculement " de 1 ' index indiquant le contexte 

10 courant /precedent qui est inherent a la mise en mode 
veille et ne necessite done aucune action particuliere . 

Avantageusement la granularite de 

detection/recouvrement d'erreur est le cycle de 
contrdle/commande de chacune des taches logicielles 

15 s ' executant sur les unites de traitement, et dans 
lequel un recouvrement peut §tre r6alis6 uniquement sur 
la tache logicielle fautive sains que 1* execution des 
autres taches n'en soit affectee. 

Avantageusement une detection d'erreur 

20 entraine la mise en mode veille du microprocesseur 
c'est-^-dire 1' inhibition de 1 ' execution de la periode 
correspondant k la granularity de 

d6tection/recouvrement dans laquelle 1 * erreur a ete 
detectee, engendrant un "trou" d'une periode dans le 

25 cycle d' execution usuel. 

Avantageusement la comparaison/vote du 
contexte peut-etre realisee optionnellement de dexix 
fagons : 

soit, le logiciel applicatif demande 
30 explicitement une comparaison/vote groupee des donn^es 
de contexte afin de les sauvegarder uniquement si elles 
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sont jugees saines, c'est-^-dire exemptes d'erreur, 
cette demande 6tant realises systematiquement en fin de 
periods correspondant k la granularity de detection 
/recouvrement ; 

5 - soit, au fur et a mesure de leur calcul, 

le dispositif materiel de surveillance des acces 
memoire de chaque unite de traitement detecte toute 
tentative d'ecriture dans les zones du contexte, et la 
soumet systematiquement a une comparaison/vote pour 

10 verifier sa veracite. 

Dans ce procede trois niveaux de zones de 
confinement des erreurs peuvent etre definis : spatial, 
temporel et logiciel. 

Ce procede est ind^pendant du choix du 

15 microprocesseur en type (microprocesseur d' usage 
g^n^ral, microprocesseur de traitement du signal, 
microprocesseur developp^ specif iquement, etc.) et en 
reference (marque, famille, reference, etc.), et 
utilisable avec tous les microprocesseurs commerciaux, 

2 0 Ce precede peut ©tre utilise dans un 

systeme electronique embarqu6 et/ou dans le domains 
spatial . 

La minimisation des developpements 
25 specif iques au procede de 1 ' invention ainsi que le 
taux de couverture d' erreurs tres eleve sont deux 
points attractifs de ce procede. Dans I'hypothese qui 
maximise la mise en ceuvre materielle, ces develop- 
pements sont essentiellement : 

3 0 • Pour le logiciel : 
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- regroupement 6ventuel des commandes en 
fin de tS.ches (ceci etant habituel dans les 
architectures duplex) , 

- declenchement 6ventuel du vote des 
5 donnees de contexte en fin de t§.ches, 

~ gestion des cl^^s*' du dispositif de 
surveillcince des acces memoire, 

- sauvegarde des donnees de contexte pour 
la . correction . 

10 - legere itiise k jour des logiciels 

existants, en fonction des caracteristiques decrites 
ci-dessus, 

• Pour le materiel : 

- developpement des f one t ions surveillance 
15 des acces memoire et gestion des processeurs et des 

entrees/sorties . 

De plus on a les elements suivants : 

- 1 'utilisation de biblioth^ques 
logicielles commerciales est possible sans aucune 

20 contrainte, 

- les fonctions surveillance des acces 
memoire et gestion des processeurs et des 
entrees/sorties sont generiques et reutilisables d'un 
pro jet a 1' autre, hormis 1' interface microprocesseur du 

25 dispositif de surveillance des acces memoire qui doit 
§tre adapte en cas de changement de microprocesseur. 

En resume, les avantages du precede de 
1 ' invention sont les suivants : 

- developpements mat^riels limites, et 
3 0 generiques done reutilisables d'un pro jet a 1' autre, 

- developpements logiciels tfes faibles, 
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- faible puissance de calcul consommee par 
la tolerance aux fautes, 

- minimisation des couts recurrents par 
rapport a d'autres architectures tolerantes aux fautes 

5 grace a une duplication structurelle limitee, 

~ mode correction n'entralnant aucune 
charge du microprocesseur , done pas de perturbation sur 
le f onctionnement temps reel de 1 ' application (pouvant 
par exemple engendrer des difficult^s de mise au 
10 point) 

- trois niveaux de zones de confinement des 
erreurs : spatial, temporel et logiciel/ 

- detection inh^rente des erreurs de 
1 ' ex6cutif temps r6el, permettant d'utiliser un produit 

15 commercial sans surcout pour la detection, 

- taux de couverture d'erreur trfes eleve. 

BREVE DESCRXPTION DES DESSXNS 

20 Les figures 1 et 2 illustrent 

respect ivement le synoptique et le f onctionnement d'une 
architecture "maltre-controleur " . 

La figure 3 illustre le synoptique d'une 
architecture materielle de reference. 
25 La figure 4 illustre le diagramme temporel 

d'une architecture logicielle de reference. 

La figure 5 illustre le sequencement de 
1 ' architecture de reference. 

La figure 6 illustre 1 * architecture du 
3 0 systeme de 1' invention. 
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La figure 7 illustre la zone de confinement 
d^erreurs au niveau spatial du systeme de 1' invention. 

EXPOSE DETAXIiliE DE MODES DE REAIjXSATXON 

5 

Dans un certain nombre de missions 
spatiales, une tres forte disponibilit^ du calculateur 
est necessaire. Ceci est en particulier vrai dajis le 
domaine des satellites de telecommunications oCi les 

10 p6nalit6s pour indisponibilit§ sont excessivement 
elevees : quelques interruptions de transmission 
pendant les heures de grande 6coute peuvent couter en 
penalites, ^ l'op6rateur du satellite, 1' Equivalent de 
la location de ce canal pendant une ann^e. 

15 Par ailleurs, le taux d'evenements 

singuliers dans un calculateur enti^rement realise en 
composants commerciaux depend bien sQr d' hypotheses 
comme le nombre de cellules memoire (regis tres, etc.) 
et la valeur prise en compte pour la sensibility d'une 

20 cellule unitaire. La frequence des 6v6nements 
singuliers est tres largement inferieure a la frequence 
du cycle temps reel du calculateur, ce cycle 
correspondant a la granularity de detection/correction 
adoptee pour le precede de 1' invention, et peut etre 

25 d'un ou de quelques evenements par mois . 

Les hypotheses maximales (i.e. pires-cas) 
retenues pour la definition d'une architecture 
tolErante aux erreurs transitoires selon 1 • invention 
sont les suivantes : 

30 - Tous les composants de 1 'architecture de 

rdf^rence sont des composants commerciaux. 
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- Ces composants commerciaux ne sont pas 
caract6ris6s en tenue aux eveneinents singuliers au 
prealable a leur utilisation : ils sont done tous 
consideres comme etant sensibles, 
5 Comme base a la description du procede de 

1' invention, on considere 1 ' architecture de reference 
typique et generique d'un calculateur utilise en 
spatial, illustr^e sur la figure 3. 

L' unite de gestion de bord 10, illustree 
10 sur cette figure 3, comprend : 

— une unit6 centrale 11, 

— une m^moire de masse 12 

— des interfaces puissance 13, charge utile 15, 
pyrotechnie 16, thennique 17, systeme de controle 

15 d' attitude et d'orbite 18, 

relies par un bus de donnees 19, 

— un interface telecommande-telemesure 14 

— une electronique de surveillance et de 
reconfiguration 20, 

20 — des convertisseurs continu--continu 21 delivrant des 
alimentations commut6es AC et permanentes AP, 

L' interface puissance 13 est reliee a un 
g^nerateur solaire 25 et a une batterie 26. 

L' interface telecommande-telemesure 14 est 
25 relie k un emetteur/recepteur , duplexeur 27 en liaison 
avec des antennes 28 et 29. 

La charge utile 31 est reliee k 1' unite 
centrale 11 par un bus avionique 32, a la memoire de 
masse 12 ainsi qu'a 1' interface telecommande/telemesure 
30 14 par urie liaison serie haut debit 33, et a 
1' interface charge utile 15. 
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L' interface pyrotechnie 16 est reli6 a des 
systemes deployables 35. 

L' interface thermique 17 est relive a des 
rechauf f eurs ^ thermistances 36. 
5 L' interface systeme de contrdle d'attitude 

et d'orbite 18 est relie a des capteurs Cl^ C2 , ... Cn, 
a des actuateurs Al, A2 Am, : et a un capteur de 

pression des reservoirs 37. 

Une telle architecture est done constitute 

10 de difftrents modules de traitement (module unitt 
centrale) ou d' entrees /sorties (modules d' acquisition, 
modules de commande) . Les modules d' entrees/sorties (ou 
d' acquisitions /commandes) int^grent 1 ' electronique de 
has niveau (convertisseur analogique / nxomtrique ou 

15 numerique / analogique, multiplexeurs de voies 
num6ricpaes ou analogiques, relais, etc.). 

Ces modules peuvent indif ftremment ©tre des 
cartes reliees par un bus f ond-de-panier, ou des 
boitiers complets relies par un bus avionique. Dans les' 

20 deux cas, 1' interface au bus est realisee par un 
coupleur de bus (CB) maltre sur le module Unit6 
Centrale, et par des coupleurs de bus abonnes sur les 
autres modules . 

L ' architecture logicielle de reference, 

25 comme illustrte sur la figure 4, est constitute de 
taches de traitement (par exemple : tache du systeme de 
contr61e d' attitude et d'orbite, tSche controle 
thermique, tSche horloge temps reel, tache gestion 
bord, etc.), chaque tache gtntrant des rtsultats qui 

30 doivent sortir du calculateur (commandes ou cdes) , ces 
resultats etant generes (i.e. sortis du calculateur) au 
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fur et a mesure de leur calcul , Les acquisitions (ou 
Acq) sont groupees en debut de cycle temps reel pour 
raisori de coherence temporelle (systeme de contrSle 
d'attitude et d'orbite par exeinple) . 
5 Sur la figure 4 les taches A, B et C sont 

representees a la meme frequence pour des raisons de 
clarte de la description. 

L'activite de ces taches est rythmee par un 
cycle temps reel declenche par une interruption temps 

10 reel IT-TR cyclique. Ce cycle permet de demarrer de 
fagon cyclique certaines tSches, qui travaillent soit a 
la frequence du cycle temps r6el, soit k une sous- 
frequence . D ' autres tSches sont asynchrones , 
initialisees sur 6venements . 

15 Une representation faisant a la f ois 

apparaltre les architectures de reference materielle et 
logicielle est fournie a la figure 5. Sur cette figure 
sont representees 1' unite centrale 40, 1 ' electronique 
d' acquisition 41 reliee ^ des capteurs 42, et 

20 1 ' electronique de commande 43 reliee a des actuateurs 
44; ces deux electroniques 41 et 43, ainsi que 1' unite 
centrale etant reliees a un bus de donnees 45. 

Le sequencement des trois phases 
principales Phi, Ph2 et Ph3 , que sont 1 ' acquisition de 

25 donnees / leur traitement, et la generation de 
commandes, mettent en jeu les trois parties distinctes 
de 1 ' electronique 40, 41, 43, les phases Ph2 et Ph3 
etant imbriquees , 

Le precede de 1* invention a une vocation 

30 generique, et peut §tre utilise dans tout type de 
calculateur soumis a des contraintes d'erreurs 
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transitoires, quelle que soit I'origine des ces erreurs 
(radiations cosmiques , impulsions electromagnetiques , 
etc • ) . 

Par consequent, sa description s'appuie sur 
5 une architecture materielle et logicielle de reference 
typique ne representant . aucune application 
particuliere . Le cote materiel de cette architecture ne 
se base que sur des blocs fonctionnels hors realisation 
materielle (hors choix de composants, hors choix des 

10 types d' integration, etc.), et ne tient done pas compte 
de la' specificity de composants particuliers 
(microprocesseur/ etc.) et de leurs capacit^s 
eventuelles dans le domaine de la detection/correction 
d'erreur. Le precede de 1 * invention est done 

15 autosuf f isant . Cependant, 1 ' utilisation d'eventuels 
mecanismes de tolerance aux fautes integr^s aux 
composants retenus pour une application donn^e ne peut 
qu'ameliorer le taux de couverture d' erreurs par 
rapport au proc^de de 1 ' invention seul • 

20 Une determination des signatures d' erreurs 

potentielles de 1 ' architecture de reference soumise a 
des evenements singuliers a ete realisee. Elle a permis 
de classer les erreurs en deux groupes principaux : 
- les erreurs de donnees, 

25 - les erreurs de sequencement , qui peuvent 

§tre egalement partagees en deux sous-classes : 

• "plantage doux" : branchement 
errone, mais le microprocesseur retombe en phase avec 
les instructions, et poursuit uri sequencement des 

30 instructions plus ou moins erratique ; 
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• '"plantage dur": le microprocesseur 
n'est plus operationnel : le microprocesseur ne reste 
pas en phase avec les instructions, le microprocesseur 
-charge le registre d' instructions avec des donnees, le 
5 -pointeur de pile est perturbe, il y * a blocage du 
s6quencement des instructions, . attente d'un evenemeiit 
impossible, boucle infinie, etc.. 

Ces deux classes se subdivisent elles-m§mes 
en diff6rentes sous-classes, dont la plus importante 

10 concerne les erreurs d'adresses. 

La distinction entre plantage '*doux" et 
**dur" est importante : autant un mecanisme materiel 
externe au microprocesseur est gdn^ralement necessaire 
a la detection des plantages "durs" (e.g. un chien de 

15 garde) , autant un mecanisme logiciel peut etre 
suffisant pour detecter un plantage ^^doux" puisque, 
dans ce dernier cas, le microprocesseur continue a 
executer du code, meme si c'est de fagon erratique. 

Par ailleurs, les plantages microprocesseur 

20 constituent une classe d' erreurs critiques, car un 

microprocesseur fou" est capable d' actions pouvant 
avoir des consequences catastrophiques pour une 
mission ; il est done important de s'attacher a les 
detecter, dans un delai court, et/ou de realiser des 

25 zones de confinement d' erreurs afin de minimiser la 
probabilite de mauvaises commandes suite k une * erreur 
non d^tectee. 

Un mecanisme, ou un ensemble de mecanismes, 
qui d^tecterait directement tout 6venement appartenant 

30 aux deux classes d' erreurs ci-dessus, pr6senterait une 
completude de detection. Si une detection diirecte de 
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ces deux classes n'est pas suf f isamment exhaustive, il 
peut alors @tre int^ressant d'utiliser des mecanismes 
specif iquement adaptes a une ou plusieurs sous-classes, 
•en particulier les erreurs d'adresses, afin d'augmenter 
5 le taux de couverture global de la solution retenue. 

CHOXX DE LA GRANULARITE DE DETECTION/ CORRECTION 

De faQon globale, la granular! te proposee 
10 dans 1 ' invention pour la detection/correction est le 
cycle temps reel de base du calculateur, par exemple le 
cycle de la tSche controle d' attitude et d'orbite d'un 
calculateur plate-forme de satellite 

Plus precisement , la granularite est le 
15 cycle de contr61e/commande de chacune des taches 
logicielles s * executant sur les coeurs unit6 de 
traitement, mais le terme "cycle temps reel" sera 
conserv6 par simplification. 

En effet dans le precede de 1' invention 
20 comme dans un duplex structurel ''classique" complet, 
I'objectif est de laisser le calculateur travailler 
sans surveillance, et de voter uniquement les donn^es 
qui doivent sortir du calculateur (les commandes) ou 
qui servent k la correction / recouvreirient d' erreurs 
25 (le contexte) . 

Le choix du cycle temps r6el pour la 
granularite est tres avantageux : 

- A cette frequence on accede en 
acquisition ou en commande a une majorite de capteurs / 

3 0 actuateurs ; 

- En fin de cycle temps reel on dispose de 
donnees "actives" en nombre relativement restreint (pas 
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de multiples donn^es intermediaires , ni de variables 
'locales en cours d' utilisation) : 

• pour la detection, on limite ainsi 
les donnees de type ''contexte" qui doivent etre 

5 votees ; 

• pour la correction, on dispose 
d'un contexte de reprise simple et bien localise. 

La recherche d'une granularity tres fine, 
en particulier pour la correction, revile rapidement la 

10 complexity induite par la definition des donnees 
n^cessaires et suffisahtes au contexte de reprise, et 
par I'ajout de votes intermediaires qui complexif lent 
le f onctionnement global. 

De fagon plus precise, la granularity de la 

15 ■ detection/correction pour une tSche donnee est la 
frequence de cette m^me tSche, puisque le vote se fait 
en fin de tache • Par consequent, si 1 ' on considere une 
tache a 10 Hz et une tache a 1 Hz, la granularite est 
de 10 Hz pour la premiere et de 1 Hz pour la seconde. 

20 Le raisonnement est identique, mais pour raison de 
clarte, on conserve dans la suite, la notion de 
granularite par cycle temps r^el" plutdt que ''par 
tache" . 

25 DESCRIPTION GLOBALE 

De fagon generale, 1 ' architecture de type 
''duplex" (deux chaines physiques identiques en 
parall^le, executant le m§me logiciel, avec comparaison 
30 des sorties) est particulierement attractive car elle 
permet de detecter toutes les erreurs sans exception. 
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quel que soit leur type (erreur de donnees, d'adresses, 
de s^quencement , de configuration, etc). 

L' inconvenient d'une telle solution , reside dans la 
lourdeur- de la redondance structurelle : on multiplie 
5 par plus de deux la masse, le volume, la consommation, 
et egalement le cout recurrent du calculateur, ce qui 
est inacceptable pour de nombreuses applications, 

Etant donne que la grande majorite des 
difficultes liees a la detection/correction d'erreurs 

10 est localisee dans le microprocesseur , une architecture 
de type '^maitre-contr61eur" est trfes attractive. 
Cependant, pour pouvoir utiliser des microprocesseurs 
qui n'integrent pas directement sur la puce les 
m^canismes autorisant la micro-synchronisation du 

15 maitre avec le controleur, et la comparaison de leur 
bus, la recherche d'une autre solution est necessaire. 

Pour b6n6f icier de I'efficacit^ du duplex, 
tout en minimisant la redondance structurelle et, 
ainsi , s ' approcher de la compacit^ d ' une architecture 

20 de type '"maltre-contrdleur" , le precede de 1* invention 
consiste a dupliquer seulement le microprocesseur et sa 
memoire (on parle de "coeur d'unite de traitement") et a 
les macro- synchroniser ; les donnees resultantes de 
chaque cceur de 1* unite de traitement (e.g. commandes, 

25 contexte) sont votees avant utilisation par un 
composant externe a ceux-ci . 

Une correction consiste, suite a une 
detection, a inhiber le cycle temps r6el en cours, et k 
recharger un contexte sain pour effectuer une reprise ; 

30 la reprise etant en fait 1' execution nominale du cycle 
suivant a partir du contexte recharge : tout se passe 
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coirume s'il y avait un ''trou" d'un cycle temps reel (il 
s'agit d'une "poursuite" ) , 

Le precede de 1 * invention permet un taiix de 
couverture d'erreurs eleve vis a vis des erreurs 
5 transitoires dans le coeur unite de traitement puisque 
ce type d'erreurs aitiene immanquableinent une difference 
entre les deux coeurs unite de traitement. 

Le precede de 1 * invention permet egalement 
de d^tecter les pannes permanentes dans I'un des cceurs 
10 unite de traitement, mais bien eviderament sans pouvoir 
les corriger, celles-ci devant §tre trait^es de fagon 
usuelle. 

Toutefois le precede de 1 ' invention ne 
protege pas les actions en aval du vote, c'est-^-dire 

15 les transferts des donnees vers 1 ' 61ectronique de 
commande (i.e. le bus de donnees), ainsi que 
1 ' 61ectronique de commande elle-m§me . Ainsi , les 
commandes critiques qui necessitent d'Stre exemptes 
d'erreurs doivent 6tre protegees par des m^canismes 

2.0 classiques : codage des donnees, circuit a detection 
d'erreur,. instrumentation de 1 ' electronique de 
commande , etc . 

La mise en oeuvre du precede de 1' invention 
fait appel a deux composants specif iques : un 

25 dispositif de surveillance des acces m^moire, et un 
dispositif de gestion des processeurs et des 
entrees/sorties. Par conception, ceux-ci sont proteges 
des 6venements singuliers par des mecanismes 
classiques : triplication des registres critiques, etc. 



30 
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DESCRXPTION DETAXLLBE 

Cons t i t uant s pr inc ipaux 

La figure 6 presente 1 ' architecture 
5 materielle du precede de 1' invention. 

Celle-ci comprend un' premier et un second 
cceur d* unite de traitement 50 et 51, qui comportent les 
m&mes elements, et un dispositif de gestion des 
processeurs et des entrees/sorties 52. 
10 Le premier coeur- d'unit^ de traitement 

comporte : 

- une iriemoire 53 protegee par code de 
detection et correction d'erreurs (EDAC) , 

- un microprocesseur 54, 

15 - un dispositif de surveillance des acces 

m^moire 55. 

Le second coeur d' unite de traitement 51 

comporte : 

- une memoire 56 protegee par code de 
20 detection et correction d'erreurs (EDAC) , 

- un microprocesseur 57, 

- un dispositif de surveillance des acces 

memoire 58. 

Chaque dispositif de surveillance des acces 
25 memoire 55, 58 genere a la memoire correspondance 53, 
56 des signaux de selection CS ("chip select"). 

Le dispositif de gestion des processeurs et 
des entrees/sorties 52 est relie a chaque dispositif de 
surveillance des accfes memoire par un bus 60, 61. Il 
30 est egalement reli6 k un bus d' entree/sortie 62. Il 
regoit des signaux ERR#1 et ERR#2 en provenance des 
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dispositifs de surveillance des acces m6moire 55 at 58, 
et un signal EA (^venements asynchrones) en provenance 
de I'exterieur. II delivre un signal IT (interruption) 
aux deux microprocesseurs 54 et 57, et un signal ERR 
5 (erreur). aux deux ccEurs d' unite de traitement 50 et 51. 

Le precede de 1 ' invention s'articule ainsi 

autour : 

- d'une duplication structurelle 50, 51 du- 
Coeur Unite de Traitement ; 

10 - d'un composant externe 52 aux coeurs 

unites de traitement r6alisant principalement trois 
fonctions : 

• la macro -synchronisation des coeurs 
unites de traitement 50 et 51, 

15 • le vote des donn6es permettant la 

detection des erreurs ; 

• la gestion des entrees/sorties ; 

- de plans memoire (53,' 56) des ccEurs 
unites de traitement proteges des evenements singuliers 

20 par code detecteur et correcteur d' erreurs (EDAC) ; 

- d/une segmentation de la memoire associee 
a un dispositif materiel de surveillance des acces 
memoire (55, 58) contrSlant les droits d' acces qui, 
avec le code detecteur et correcteur d' erreurs, permet 

25 de sauvegarder de fagon sure le contexte de r-eprise 
dans les plans memoire banalises (53, 56) et de 
d6tecter des erreurs d' adressage; 

- d'une gestion particuliere du contexte de 

reprise; 

3 0 - d'une correction en cas d' erreur; 
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- de trois niveaux de zones de confinement 

des erreurs , 

Un "vote majoritaire" prend en compte trois 
entries au moins, et il est plus rigoureux d'utiliser 
5 le terme ''comparateur " lorsqu'il. y a deux entrees 
seulement, comme c'est le cas pour le procede de 
1' invention a deux occurs unites de traitement illustre 
sur la figure 6. Dans la presente description on 
utilise cependant le terme generique ''voteur", qui est 
10 plus parlant. 

Duplication structurelle 

Dans le proced^ de 1 ' invention, la 
. duplication structurelle est limitee au coeur de l'unit6 
15 de traitement, c'est ^ dire a\ix elements suivants: 

- le microprocesseur (54, 57) , 

- la memoire (53, 56) du microprocesseur 
(memoire morte et vive) prot6g6e des ev^nements 
singuliers par detection et corrections d' erreurs 

20 (EDAC) , 

- un dispositif materiel externe de 
surveillance des acces memoire (55, 58), integrant la 
logique de decodage des adresses et de surveillance des 
acces memoire, 

25 contrairement k 1 ' architecture "maitre-controleur " ou 
seul le microprocesseur est duplique, et contrairement 
au duplex structurel classique ou toute la carte unite 
centrale, voire tout le calculateur, sont dupliques . 

Cette duplication structurelle des coeurs 

30 vinit6 de traitement permet d'utiliser un executif temps 
reel non modifie et des logiciels applicatifs 
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identiques s' executant simultan^ment sur les coeurs 
unit6 de traitement et s ' arrStant aux memes points dans 
le flot d' instruction (macro-synchronisation) pour 
demander une entree/sortie (acquisition/commande) 
5 identique ou un vote sur des donnees identiques (par 
example de contexte) . 

Synchronisation /vote/ entrees-sorties 

Le dispositif materiel 52 externe aux coeurs 
10 des unites de traitement 50 et 51, de gestion des 
processeurs et des entrees/sorties, integre les 
fonctions suivantes : 

- macro-synchronisation des coeurs de 

traitement, 
15 - vote, 

- initialisation d'une correction suite a 
la detection d'une erreur, 

- acces aux memoires des coeurs unite de 
traitement en mode ''acces direct memoire" (Direct 

20 Memory Access) , 

- gestion des entrees/sorties et interface 
entre les bus des unites de traitement 60 et 61 de 
chacun des deux coeurs unite de traitement et un bus 62 
d' entree/sortie ; 

25 - controleur d' interruptions (IT). 

Chacun des coeurs unite de traitement 50 et 
51 communique avec le dispositif de gestion des 
processeurs et des entrees/sorties 52 par 
1 ' interm^diaire des bus d'unit6 de traitement 60, 61, 

30 Les entrees/sorties sont g^rees par le dispositif de 
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gestion des processeurs et des entrees/sorties 52 a 
travers le bus d ' entree/sortie 62. 

Macro-synchronisation 

5 Chacun des ccEurs unites de traitement 50, 

51 travaille de fagon independante I'un de 1' autre. Des 
que I'un des coeurs unites de traitement 50 ou 51 
souhaite effectuer une entree/ sortie, c'est-a-dire soit 
lire une acquisition soit generer une commanded le 
10 f onctionnement est le suivant : 

- ledit coeur unit6 de traitement envoie au 
dispositif de gestion des processeurs et des 
entrees /sorties 52 un message d^crivant sa demande par 
1 ' interm^diaire du bus unit6 de traitement 

15 correspondant 60 ou 61 (le message inclut une adresse 
pour une acquisition ou \in couple adresse /donn6e pour 
une commande) ; 

- le dispositif de gestion des processeurs 
et des entries /sorties 52 attend alors un message sur 

20 son autre bus unite de traitement. 

- Si le deuxieme bus unite de traitement 
est muet k 1' expiration d'un delai donn^, une erreur 
est decretee. Sinon, le dispositif de gestion des 
processeurs et des entrees/sorties compare les deux 

25 messages ; s'ils sont strictement identiques (longueur 
et contenu) , alors le dispositif de gestion des 
processeurs et des entrees/sorties 52 effectue le 
transfert demande par 1 ' intermediaire du bus 
d ' entree/sortie 62. 

30 - Une fois ce transfert effectue, la donnee 

dans le cas d'une acquisition est ecrite directement en 
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acces direct memoire en memoire de chacun des cceurs 
unites de traitement par le dispositif de gestion des 
processeurs et des entrees/sorties, puis le dispositif 
■ de gestion des processeurs et .des entrees/sorties 
5 acquitte les deux, cceurs unites de traitement. 

Chacun des cceurs unites de traitement peut 
alors reprendre son traitement de fagon independante : 
le proc6d6 de 1 ' invention utilise done une macro- 
synchronisation limit6e aux moments de vote 
10 (entries /sorties, contexte) contrairement k 

1' architecture '"maltre-contrdleur" ou les 

microprocesseurs sont micro-synchronis6s instruction 
par instruction. 

Le nombre de macro- synchronisations peut 
15 §tre r6duit en regroupant la g6n6ration des commandes, 
ainsi que le vote des donn^es de contexte, en fin de 
cycle ■ temps reel contrairement a la structure du 
logiciel de reference, 

2 0 Vote 

Le vote realise par le dispositif de 
gestion des processeurs et des entrees /sorties 52 peut 
§tre simple (type vote bit-a-bit) ou plus complexe 
(type vote par rapport a des seuils) suivant la mise en 

25 ceuvre retenue. Dans la deuxieme hypo these, le seuil est 
un paramfetre transmis au voteur par les cceurs unites de 
traitement k chaque entree/sortie ; les seuils sont 
eux-m§mes votes bit-a-bit avant utilisation. 

Si les votes complexes sont en nombre 

30 restreint, ils peuvent §tre confies au logiciel 
applicatif afin de limiter la complexity du voteur 
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materiel (par exemple, ^change des donn^es complexes a 
voter entre coeurs unites de traitement par 
1 ' interm^diaire de I'acc^s direct memoire du dispositif 
de gestion des processeurs et des entrees/sorties, puis 
5 vote par le dispositif de gestion des processeurs et 
des entrees/sorties du resultat du vote de chacxin des 
coeurs unites de traitement) . 

Initialisation d'une correction 

10 La detection el&nentaire d'erreurs est 

r^partie entre les dispositifs de surveillance des 
acces memoire 55 et 58 inclus dans les coeurs unites de 
traitement 50 et 51 (contr61e des droits d' acces 
memoire) , et le dispositif de gestion des processeurs 

15 et des entrees/sorties 52 a I'exterieur des coeurs 
unites de traitement (vote) - 

Par centre, la decision globale de 
considerer qu'une erreur vient d'etre d6tect6e est 
centralisee dans le dispositif de gestion des 

20 processeurs et des entrees/sorties 52 : lorsqu'un 
dispositif de surveillance des acces memoire a detecte 
une erreur, il I'indique au dispositif de gestion des 
processeurs et des entrees/sorties (ERR#1 ou ERR#2) qui 
genere alors un signal d' erreur unique ERR vers les 

25 deux coeurs unites de traitement afin qu'une phase de 
correction soit initialisee par chacun d'eux. 

Controleur d* acces direct xaemoxre 

Le dispositif de gestion des processeurs et 
30 des entrees/sorties 52 int^gre un contr61eur d' acces 
direct memoire pour charger en memoire des coeurs unite 
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de traitement les donn^es issues d' acquisitions, et 
optionnellement pour acc6der aux donnees de contexte k 
voter. Ce controleur d'acces direct memoire peut 
egalement etre utilise dans le cas d'un bus unite de 
5 traitement et/ou bus d ' entree/sortie, a transfert de 
blocs . 

Gest^ion des entrees /sorties 

Le dispositif de gestion des processeurs et 

10 des entrees/sorties 52 realise 1' interface entre les 
bus unit6 de traitement 60, 61 de chacun des deuix coeurs 
unit6 de traitement 50, 51 et un bus unique 
d'entr6e/sortie 62, et gere les entries./ sorties pour le 
compte des coeurs unite de traitement lorsque ceux-ci 

15 fournissent une demande identique. 

Contr51eur d' interruptions 

Le dispositif de gestion des processeurs et 
des entries /sorties 52 regoit tous les 6v6nements 

20 asynchrones EA externes et g^n^re les interruptions IT 
simultan^ment vers les deux coeurs unit6 de traitement 
.50 et 51. Celles-ci sont m6moris6es dans le dispositif 
de gestion des processeurs et des entrees/sorties 
jusqu'a 1' acquit tement par les deux coeurs unite de 

25 traitement. Chaque microprocesseur peut ainsi s' assurer 
q;u'il ne s'agit pas d'une interruption parasite gener6e 
par un evenement singulier dans sa propre logique 
interne d' interruption. 
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Protection des plans mexnoire 

Les plans memoires sont classiquement 
proteges contre les ' evenements singuliers par code 
correcteur (EDAC) et tache de scrutation (relecture en 
5 tSche de fond de tout le plan memoire pour detecter et 
corriger les erreurs dormantes afin d'^viter 
1 ' accumulation de bits erron6s dans le m&ne mot qui 
pourraient alors ne plus §tre detectees et/ou corrigees 
par le code) . 

10 Cette caract^ristigue est importante pour 

le proc6d6 de 1' invention. En effet, il est essentiel 
d'obtenir une f iabilisation de la memorisation des 
donn^es de contexte de reprise, pour s' assurer de 
I'efficacit^ de la correction. 

15 Le proc6d6 de 1 ' invention s'appuie done sur 

un plan m&tioire doublement prot6g6 : 

- sur un plan m6moire intrinseguement 
fiable vis a vis des evenements singuliers grSce a 
1 'utilisation d'un dispositif de detection et 

20 correction d*erreur (EDAC) ; 

- sur un plan memoire fiable vis a vis des 
ecritures incorrectes suite a une erreur d'adresse, 
d' instruction, un plantage du microprocesseur , etc., 
grace a 1 'utilisation d'une surveillance des droits 

25 d'acces (dispositif s de surveillance des acces 
memoire) • 

Dispositif de surveillance des acces memoire 

Chaque dispositif de surveillance des acces 
30 memoire 55 ou 58 est un dispositif materiel derive des 
classiques unites de protection memoire par blocs . La 
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m^moire est partitionnee en segments, et ce dispositif 
permet de verifier que le microprocesseur cherchant a 
acceder a un segment, en possede bien le droit d'acces. 

Le dispositif de surveillance des acces 
5 mdmoire permet de detecter une grande partie des 
erreurs d'adresses. II permet, en particulier, de 
detecter tr^s rapidement, i.e. avec un delai faible, de 
nombreux cas de plantage du .microprocesseur. En effet, 
suite k xin plantage "doux", un microprocesseur peut 

10 frequemment sortir de la zone d'adresses autoris6es. 
Ainsi/ le dispositif de surveillance des accfes m&noire 
permet de detecter tres vite les erreurs de 
sequencement du microprocesseur, qui. representent une 
categorie d' erreurs critiques. 

15 Le dispositif de surveillance des acces 

m6moire dispose de certaines caracteristiques 
specifiques : 

- la taille des segments est quelconque, et 
definie en fonction de 1 ' application ; 

20 - certains segments ont une signification 

et un f onctionnement specifiques au precede de 
1' invention, en particulier ceux qui servent a 
sauvegarder le contexte de reprise; 

- I'autorisation d'acces se fait en 
25 programmant des cles memorisees dans des regis tres 

internes au dispositif de surveillance des acces 
m^moire/ la definition de ces cles etant specif ique au 
precede de 1 ' invention ; 

- la definition des cl^s est d'un niveau 
30 ^'logiciel applicatif et non d'un niveau ''materiel " ; 
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- I'autorisation d'acces a un segment est 
donnee en fonction d'une cofnbinaison logique de tout ou 
partie des cles, les combinaisons logiques pour chacun 
des segments etant specifiques au precede de 

5 1 ' invention ; 

- Le dispositif de surveillance des acces 
memoire peut declencher des mecanismes specifiques lors 
d'une lecture ou d'une ecriture d'un segment 
particulier . 

10 - Le dispositif de surveillance des acces 

memoire peut declencher des mecanismes specifiques lors 
d'une lecture ou d'une Ecriture d'un segment 
particulier ; 

- une zone est affectee par tSche 
15 applicative du logiciel afin de disposer d'un 

confinement logiciel entre tSche, 

- une zone de memorisation du contexte est 
affectee par tSche afin de le proteger de fagon 
specif ique avec un f onctionnement en basculement 

20 "Old" /"New". 

La liste des cies integrees dans le 
dispositif de surveillance des acces memoire est 
fournie ci-dessous : 

- Cle d' interdiction d'acces en ecriture a 
25 la zone memorisant le code afin d'eviter une corruption 

de celui-ci. Dans le cas inverse / il faudrait 
systematiquement voter le code et le recharger chaque 
fois qu'une erreur est detectee, ce qui serait 
particulierement contraignant . Cette cle permet 
30 d'autoriser 1' ecriture de la memoirei uniquement lors de 
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1 ' initialisation du calculateur, lorsque le code en 
memoire morte doit etre transfere en memoire viva. 

- Cle indiquant quelle est la tache 
courante, et autorisant le microprocesseur a n'acceder 

5 qu'd. la zone memoire contenant les donnees de la tache 
du logiciel en cours d' execution Cette cle permet une 
etancheif ication aux erreurs d'une tSche par rapport 
aux autres, 

- C16 indiquant quelle est, parmi les jeux 
10 de zones '^Old" / ''New" travaillant en basculement, les 

zones "'Old" et les zones "'New", sachant que les zones 
''Old" sont interdites en 6criture. 

Fonctioimement du context^e de reprise 

15 

Les zones memoire affect^es a la sauvegarde 
du contexte de recouvrement ou de reprise sont 
dif f 6renci6es pour chaque tSche afin de limiter le 
recouvrement d'erreur a la seule tSche fautive, c'est- 

2 0 a-dire la tache courante au moment de la detection 

d'une erreur ; ainsi un recouvrement peut §tre realise 
uniquement sur la t§.che logicielle fautive sans que 
1' execution des autres taches n'en soit affectee. 

Le f onctionnement du contexte de reprise 
25 fait. appel a quatre phases distinctes : la 
memorisation, le vote, la sauvegarde et la 
restauration . 

Pour un mode de correction de type 
"recouvrement", les donnees constituant le contexte de 

3 0 reprise doivent §tre specif iquement protegees de fagon 
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^ ce que la reprise puisse se faire a partir d'un 
contexte sain a coup s<ir. 

Pour cela, les donn6es sont memorisees dans 
des zones specifiques de la memoire des coeurs unites de 
5 traitem^nt (53, 56) ^ chaque zone etant geree par le 
dispositif de surveillance des acces memoire en une 
double banque ''Old" et "New" travaillant en basculement 
(en '^flip-flop") . 

Plusieurs methodes sont utilisables pour en 
10 effectuer le vote : 

- En fin de cycle temps reel, les zones 
''New" sont vetoes de fagon groupie par le dispositif de 
gestion des processeurs et des entrees/sorties 52, a la 
demande du logiciel applicatif, afin de les sauvegarder 

15 uniquement si elles sont jug^es saines. Cette methode 
pr^sente I'avantage de r^duire le nombre de macro- 
synchronisations n^cessaires au vote des donhees de 
contexte , 

- Toute tentative d'ecriture dans I'une" des 
20 ' zones de contexte, au fur et a mesure du cycle temps 

r6el, est d^tectee par le dispositif de surveillance 
des acc^s memoire et syst^matiquement transmise au 
dispositif de gestion des processeurs et des 
entrees/sorties pour vote. Si le vote est correct, la 

2 5 donnee est ef f ectivement rangee en memoire des coeurs 

unite de traitement par le dispositif de surveillance 
des acces memoire. 

En fin de cycle temps r^el, et apres le 
vote pour la premiere methode, les zones de contexte 

3 0 courant sont sauvegard6es et basculees en 
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intervertissant les index "Old" et "New" : le context e 
courant est devenu le contexte precedent. 

La fonction ''restauration de contexte", 
activee lors d'une correction d'erreur, est r^alisee 
5 grSce au fait- que 1 ' index ihdiquant le contexte 
precedent juge sain n'est pas change, alors qu'il est 
bascule' en temps normal lorsqu' aucune erreur n'est 
detectee ; ce '^non basculemenf 6tant inherent ^ 
1' inhibition de 1' execution du cycle temps r^el dans 
10 lequel 1' erreur est detectee. 

Recouvrement ou correction 

Diff6rents modes de correction, plus ou 
moins complexes, peuvent etre mis en oeuvre suivant le 
15 type de mission a r^aliser : 

- reinitialisation systeme, c'est a dire 
reinitialisation a chaud, reinitialisation k froid ou 
passage sur un calculateur redondant s'il en existe un, 

- recouvrement arriere, 

20 - recouvrement avant, c'est a dire 

poursuite "pure" ou poursuite a partir d'un contexte 
sauvegarde . 

On choisit pref erentiellement la derniere 
solution pour des systemes complexes de controle- 
25 commande, solution utilisee dans ladite description du 
pour decrire le precede de 1' invention. 

La correction s' execute suivant le 
sequencement suivant : 

- lorsqu 'une erreur est detectee, le cycle 
30 temps r6el courant (numero N) est inhib^, aucune 

commande n'est g^neree : le microprocesseur passe -en 
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mode veille (^'standby") en attendant le cycle temps 
reel suivant ; 

- le cycle temps reel suivant N+1 s' execute 
non pas a partir du contexte N (qui n'est pas sur) , 
5 . mais du contexte precedent N-1, et des acquisitions du 
cycle c our ant N+1. 

En fait, on ne rejoue pas ' le cycle temps 
r6el fautif . II ne s'agit pas d'une reprise a 
proprement parler. On se contente simplement d'inhiber 
10 le cycle temps reel courant et de restaurer le contexte 
du cycle precedent. En cas d'erreur, le microprocesseur 
ne g6n6re pas les commandes du cycle temps r6el courant 
puisqu'il s'est mis en veille : tout se passe comme 
s'il y avait un "trou" d»un cycle temps r6el . 
15 La correction ne n^cessite aucune action 

specif ique : le microprocesseur s ' 6tant mis en veille 
apres une detection, il ne peut ex^cuter (ou finaliser 
1' execution) du vote en fin de cycle temps r^el 
courant. Cela entralne naturellement une non- 
20 permutation des contextes "Old" et "New" qui se fait en 
fin de vote lorsque 1 ' etat du systeme peut etre decrete 
sain. La restauration, ou le rechargement , des 
contextes suite a une detection d'erreur est done 
intrinseque au f onctionnement retenu pour le precede de 
25 1' invention. 

Lors d'une reprise, on utilise couramment 
le terme "rechargement du contexte". En definitive, le 
proc6d6 ne n^cessite pas de rechargement a proprement 
parler, puisque simplement on ne commute pas les index 
3 0 "Old" et "New" des zones de contexte suite a une 
detection d'erreur : en fait, la reprise consiste "a ne 
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rien faire", a se mettre en veille, le reste decoulant 
automatiquement du f onctionnement nominal . 

Par ailleurs, le recouvrement ou correction 
pent' etre liinite a la tSche courante grS.ce au 
5' confinement entre taches et a la differentiation des 
contextes de reprise pour chaque tache ; dans ce cas, 
seule la tdche fautive est avortee et perd un cycle 
temps reel dans le cas d'un recouvrement par poursuite, 
1 ' execution des autres taches n'6tant en rien affectee. 

10 Une seule tentative de reprise est 

effectuee. Si elle inf ructueuse, c'est par exemple que 
1 ' erreur a r6ussi k se propager jusqu'au contexts de 
reprise qui n'est alors plus sain^ ou qu'il y a une 
panne permanente. Une reinitialisation complete du 

15 calculateur, ou le passage sur un calculateur de 
secours en redondance s'il en existe un, est alors 
necessaire. 

Zones de confinement 

20 Trois zones de confinement sont definies 

dans le precede de 1' invention. 

La premiere zone correspond a un 
confinement spatial. Cette zone majeure de confinement 
des erreurs 70 est constituee de 1 ' electronique 

25 d ' acquisition 41 et de l'unit6 centrale 40, corame 
illustre sur la figure 7, Sur cette figure, on utilise 
les m§mes references que celles de la figure 5. 
L * electronique d' acquisition est protegee par des 
mecanismes- classiques (par exemple replication) . Ainsi, 

30 si une erreur perturbe les acquisitions, ou le 
traitement (le temps de calcul alloue au traitement 
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etant de loin le plus important, c'est statistiquement 
dans la phase de traitement gu'il y a le plus 
d'erreurs), cette erreur ne peut pas etre generee vers 
1 ' electronique de commande. Les erreurs survenant suite 
5 a un evenement singulier dans 1 ' electronique 
d' acquisition ou dans 1' unite centrale ne peuvent done 
pas engendrer de mauvaises commandes du satellite ; 
elles ne perturbent pas la mission. 

La deuxieme zone correspond k un 

10 confinement temporel des erreurs au niveau d'un cycle 
temps r6el (le cycle temps reel qui suit 1' apparition 
d'une erreur est correct) , puisque la correction est 
bas^e sur une granular ite d'un cycle temps reel. 

La troisieme zone correspond a un 

15 confinement logiciel des erreurs au niveau des tSches 
logicielles (pas de propagation d' erreurs d'une tSche a 
1' autre) grSce au dispositif de surveillance des acces 
m^moire . 

20 Taux de couverture d' erreurs du precede 

Le taux de couverture d' erreurs pour un 
mecanisme de tolerance aux fautes represente le 
pourcentage d' erreurs qu'il est capable de traiter au 
regard de 1 ' ensemble des erreurs susceptibles de se 
25 produire. 

Par ailleurs/ dans le precede de 
1* invention, etant donne que la zone de confinement 
spatial est etanche aux erreurs, il ne peut y avoir de 
commande erronee g6n6r6e a 1 ' electronique de commande. 
30 Le taux de couverture d' erreurs, dans le 

precede de 1' invention, devrait se trouver dans la 



wo 01/46805 



PCT/FROO/03640 



50 

gamine des taux de couverture usuels de duplex 
structurel, soit superieur a 99. %. 

Variantes 

5 Des variantes du precede de 1 * invention 

sont possibles. Certaines ont deja ete mentionnees : 

• Regroupement de la g6n6rat'ion des 
coininandes, et du vote des donnees de contexte, en fin 
de cycle temps reel pour reduire le nombre de macro- 

10 synchronisations. 

• Vote simple (type vote bit a bit) ou plus 
complexe (type vote par rapport a des seuils) . 

• Bus unit^ de traitement et/ou bus 
d* entree/ sortie a transfert de blocs ou non . 

15 • Mode de correction. 

• Integration des mecanismes logiciels du 
precede de 1 ' invention dans I'ex^cutif temps r6el afin 
de maximiser le taux de correction. 

Par ailleurs, il est possible de r^partir 
20 les fonctions suivantes du dispositif de gestion des 
processeurs et des entrees/sorties dans les coeurs unite 
de traitement, et de les realiser en logiciel au prix 
d'une reduction du taux de couverture d'erreurs : 

- la macro-synchronisation, 
25 - le vote, 

- la gestion des entrees/sorties. 

Le dispositif de gestion des processeurs et 
des entrees/sorties 52 de synchronisation/vote/ 
entrees-sorties peut egalement etre supprime et ses 
30 fonctions reparties en materiel et/ou en logiciel dans 
les coeurs unite de traitement. 
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Enfin, il est possible de tripliquer le 
cceur unite de traitement, eventual lement en simplifiant 
ou supprimant le dispositif de surveillance des acces 
m^moire, le dispositif de gestion des processeurs et 
5 des entrees /sorties etant connecte aux trois coeurs 
unite de traitement et realisant un vote majoritaire . 
Les erreurs sont raasquees en temps reel . Un contexte 
memoir e sain doit etre trans fere en memoir e cceur de 
1' unite de traitement fautif si le dispositif de 
10 surveillance des acces memoire a ete supprime ou si 
I'erreur concerne I'executif temps reel. Ce transfert 
peut §tre fortement r6duit si le dispositif de 
surveillance des acces memoire est conserve avec la 
fonction ''segmentation par tSche". 



15 
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REVENDICATIONS 

1. Systeme inf ormatique tolerant aux 
erreurs transitoires constitue d'une unit6 de 
5 traitement, caracterise en ce qu'il comprend : 

• au moins deux unites de traitement (50, 51) 
comportant chacune : 

- un microprocesseur (54, 57) 

- une memoire (53, 56) prot^g^e par un 
10 dispositif g6n6rant et contr61ant un code de 

detection et correction d'erreur, 

- un dispositif (55, 58) de surveillance des 
acces memoire, comprenant principalement : 

- des moyens de segmentation de la memoire 
15 et de verification des droits d* acces ^ 

chaque segment (53, 56), 

des moyens de protection specifique des 
segments de la memoire (53, 56) alloues a la 
sauvegarde du contexte de recouvrement , 
20 - des moyens de generation d'un signal de 

demande de correction au dispositif (52) de 
gestion des unites de traitement et des 
entrees/sorties , 
. • un dispositif (52) centralist de gestion des 
25 unites de traitement et des entrees /sorties 

comportant : 

- des moyens de macro-synchronisation des unites 
de traitement (50, 51), 

- des moyens de comparai son/vote des donnees 
•30 generees par les unites de traitement (50, 51), 

- des moyens de demande de correction emanant 
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des dispositifs (55, 58) de surveillance des 
acces memo ire, 

- des moyens de prise de decision afin 
d • initialiser une phase de correction en cas 

5 d'erreur et des moyens permettant de transmettre 

simultanement cette demande a toutes les unites 
de traitement (50, 51), 

- des moyens permettant d*effectuer les 
entrees/sorties, 

10 • des liaisons (60, . 61) reliant respectivement 

chaque unite de traitement au dispositif (52) de 
gestion des unites de traitement et des 
entrees / sorties . 

15 2. Systeme selon la revendication 1, dans 

lequel le dispositif de surveillance des acces m^moire 
(55, 58) comprend des moyens permettant : 

- de differencier les zones memoire de chaque 
tache, 

20 - d'autoriser les acces a la zone memoire affect^e 

a la tache courante, 

- d^interdire les acces aux zones memoires 
affectees aux autres taches . 

25 3. Systeme selon la revendication 1, dans 

lequel le dispositif de surveillance des acc^s memoire 
(55, 58) comprend des moyens permettant : 

- de memoriser ce contexte dans une memoire (53, 
56) banalis6e et centralisee de chaque unit6 de 

30 traitement (50, 51) sans necessiter de 

dispositif de stockage specif ique. 
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- de differencier les zones m^moire affectees a la 
sauvegarde du contexte de chaque tSche, 

- de gerer chaque zone servant a memoriser ce 
contexte en une double banque "Old" et "New", 

5 " faire travail ler en basculement les doubles 

banques "Old" et "New", 

- de* basculer les doubles banques en 
intervertissant simplement un jeu d* index "Old" et 
"New" , 

10 - d;autoriser en lecture les zones "Old" tout en 

les interdisant en ecriture. 

4, Systeme selon I'une quelconque des 
revendications precedentes, qui est utilise dans un 

15 systeme ^lectronique embarque et/ou dans ■ le domaine 
spatial . 

5. Precede pour rendre tolerant aux fautes 
transitoires un systeme informatique constitue d'une 

20 unit6 de traitement, caract6ris6 en ce qu'il permet : 

• d'executer simultanement sur au moins deux unites 
de traitement (50, 51), de fagon independante et 
asynchrone, des logiciels identiques, et repondant 
au f onctionnement suivant : 
25 - les erreurs transitoires affectant la m^moire 

(53, 56) des unites de traitement (50, 51) sont 
detect^es et corrigees grSce a 1 * utilisation 
d'un code de detection et correction stocki en 
memoire associe a une tSche logicielle de 
30 scrutation, 

- le bon f onctionnement du microprocesseur (54, 
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57) des unites de trait ement (50, 51) est 
verifi6 grSce k une segmentation de la memoire. 
associ6e ^ une surveillance des acces memoire 
qui contr61e que le microprocesseur dispose bien 
5 des droits d* acces au segment courant de la 

m&noire (53, 56), 

- les segments memoire alloues a la sauvegarde du 
contexte de recouvrement sont d ' une grande 
s-Qrete gr§ce a une surveillance specifique des 

10 acces memoire, afin d' assurer qu'un 

microprocesseur (54, 57) dysf onctionnant ne 
puisse pas g^nerer d'erreur dans ces zones 
critiques, 

- une demande de correction est transmise a la 
15 f onction de gestion des unites de traitement et 

des entries /sorties en cas de violation des 
droits d' acces, 
• de centraliser les operations suivantes dans la 
fonction de gestion des unites de traitement et des 
20 entries/ sorties , 

- macro-synchronisation des differentes executions 
simultanees du logiciel, 

- comparaison/vote de toutes les donnees generees 
par les differentes executions du logiciel, 

25 - reception des demandes de correction emanant des 

fonctions de surveillance des acces memoire 
suite a une detection d'erreur, 

- lorsqu'une erreur est detectee quelle que soit 
sa source, prise de decision afin d' initialiser 

30 une phase de correction et transmission de cette 

demande simultan&nent aux differentes executions 
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du logiciel, 

- realisation des entrees /sorties a la demande des 
logiciels , 

• de realiser 1* interface entre les logiciels 
5 s' executant simultanement et la fonction de gestion 

des unites de traitement et des entrees/sorties, 

6. Proced6 selon la revendication 5, dans 
leguel existe une zone de confinement d'erreurs entre 
10 tSches logicielles, de maniere a ce qu'un 
microprocesseur (54, 57) dysf onctionnant ne puisse 
perturber que les variables de la tSche courante mais 
pas celles des autres tSches : 

15 7. Proc6d6 selon la revendication 5, dans 

lequel, en cas de detection d'erreur, un recouvrement 
est possible grSce au vote puis a la memorisation du 
contexte precedent des taches logicielles, et grace a 
sa protection specif ique permettant de garantir qu'il 

20 est sain, ce contexte etant memorise dans une memoire 
(53, 56) banalisee et centralisee de chaque unite de 
traitement (50, 51), dans des zones memoire specifiques 
a chaque tache en une double barique "Old" et "New" 
travaillant en basculement, le basculement de ces 

25 doubles banques s'effectuant en intervertissant 
simplement un jeu d* index "Old" et "New" afin que le 
contexte courant devienne ainsi le contexte precedent, 
les zones "Old" etant autorisees en lecture pour servir 
de donnees d' entree aux tSches mais interdites en 

30 ecriture et ainsi prot6g6es meme en cas de 
dysf onctionnement des microprocesseurs (54, 57) 
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8. Precede selon la revendication 1 , dans 
lequel le recouvrement d'erreur bas6 sur une 
restauration du contexte pr^c^dent, est realise grSce 

5 au fait que 1 ' index indiquant le contexte precedent 
juge sain n'est pas change, alors qu'il est bascule 
systematiquement en fin de periode correspondant a la 
granularite de detection/recouvrement lorsqu ' aucune 
erreur n'est detectee. 

10 ■ 

9. Precede selon la revendication 5, dans 
lequel la granularite de detection/recouvrement 
d* erreur est le cycle de controle/coiratiande de chacune 
des taches logicielles s ' executant sur les unites de 

15 traitement (50/ 51), et dans lequel un recouvrement 
peut §tre realist uniquement sur la tdche logicielle 
f autive sans que 1 ' execution des autres tSches n ' en 
soit affectee. 

20 10. Proc6d6 selon la revendication 5, dans 

lequel une detection d' erreur entralne la mise en mode 
veille du microprocesseur , engendrant un "trou" d'une 
periode dans le cycle d' execution usuel . 

25 !!• Precede selon la revendication 5, dans 

lequel la comparaison/vote du contexte peut-etre 
realisee optionnellement de deux fagons : 

-soit, le logiciel applicatif demande explicitement 
une comparaison/vote groupee des donnees de 
30 contexte afin de les sauvegarder uniquement si 

elles sont jugees saines, cette demande etant 
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realisee syst^matiquement en . fin de periode 
correspondant k la granularite de 

detection/ recouvrement ; 
- soit, au fur et a mesure de leur calcul, le 
5 dispositif materiel de surveillance des acces 

memoire (55, 58) de chaque unite de traitement 
(50, 51) detecte toute tentative d'ecriture dans 
les zones du contexte, et la soumet 
systematiquement a une comparaison/vote pour 
10 verifier sa veracity, 

12. Proc6d6 selon la revendication 5, dans 
lequel trois niveaux de zones de confinement des 
erreurs sont definis : spatial, temporel et logiciel. 



15 



20 



13. Proc6d6 selon I'une des revendi cat ions 
5 ^ 12, qui est ind^pendant du choix du microprocesseur 
et qui est utilisable avec tous les microprocesseurs 
coinmerciaux , 

14. Precede selon I'une quelconque des 
revendications 5 ^ 13, qui est utilise dans un systeiue 
electronique embarque et/ou dans le domaine spatial. 



25 
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